2  Introducción

Los sistemas eléctricos constituyen pilares fundamentales para el desarrollo económico y social de cualquier nación, ya que permiten el acceso a servicios esenciales, impulsan la productividad y favorecen la equidad territorial \cite{bisaga2021mapping, garces2021lessons}. En este contexto, la transición hacia fuentes de energía renovable ha cobrado una relevancia creciente, posicionando a la energía solar como una alternativa estratégica gracias a su disponibilidad, sostenibilidad y reducción de costos. 

  
A medida que su implementación se vuelve más accesible en términos tecnológicos y económicos, la precisión en la predicción de la radiación solar emerge como un insumo clave para maximizar la eficiencia y viabilidad de los sistemas fotovoltaicos . Contar con estimaciones fiables no solo mejora la planificación energética, sino que también permite una mejor gestión de la oferta y la demanda, especialmente en territorios con alta irradiación y bajos niveles de electrificación.
<img src="https://cdn-icons-png.flaticon.com/512/3301/3301609.png" alt="Sistema Eléctrico" width="2000">
En el caso particular de Brasil, la energía solar representa una fuente abundante, limpia y con un potencial significativo de aprovechamiento. El impulso a investigaciones aplicadas en este campo no solo favorece la diversificación de la matriz energética nacional, sino que también contribuye a reducir la dependencia de los combustibles fósiles, avanzar hacia una transición energética justa y fortalecer la seguridad energética del país.
Además, Brasil se distingue por su extensión territorial y diversidad climática, lo que ha consolidado su compromiso con la sostenibilidad y la transición energética. Históricamente, la energía hidroeléctrica ha constituido la columna vertebral de su matriz energética, representando aproximadamente entre el 60 % y el 65 % de la generación total de electricidad. No obstante, en los últimos años, el país ha experimentado un crecimiento significativo en la adopción de fuentes como la energía solar y eólica, consolidando su liderazgo en el aprovechamiento de energías limpias .
<img src="https://cdn-icons-png.flaticon.com/512/10028/10028994.png" alt="Brasil" width="2000">

2.1 Contexto

El noreste de Brasil, una región históricamente marcada por desafíos socioeconómicos y pobreza energética, ha emergido como un epicentro estratégico para la generación de energía solar. Esta región presenta algunos de los índices más altos de irradiación solar a nivel mundial (ver figura 1). El mapa de Irradiación Normal Directa promedio a largo plazo en Brasil, que cubre el periodo de 1999 a 2018, ofrece un análisis detallado de la distribución espacial de la radiación solar en el país, destacando al noreste como una de las zonas con mayor potencial para el aprovechamiento de esta fuente renovable.

A continuación, los estados del noreste de Brasil y sus respectivas capitales:

Estado Ciudad
Alagoas Maceió
Bahia Salvador
Ceará Fortaleza
Maranhão São Luís
Paraíba João Pessoa
Pernambuco Recife
Piauí Teresina
Rio Grande do Norte Natal
Sergipe Aracaju

Además, factores como la intensidad de los vientos y los altos niveles de evaporación, evidenciados en diversos estudios, refuerzan el potencial fotovoltaico de esta región.

<img src="figures/Mapa_Br_Rad.png" alt="Mapa Rad" width="100%">
<p style="font-size: 90%;"><strong>Figura 1.</strong> Mapa de Irradiación Solar</p>
<img src="figures/Mapa_Br_PHV.png" alt="Mapa FV" width="100%">
<p style="font-size: 90%;"><strong>Figura 2.</strong> Mapa de Potencial Fotovoltaico</p>

La figura 2 revela la capacidad de generación fotovoltaica en todo el territorio brasileño, subrayando particularmente el noreste. Por otro lado, se presentan los totales diarios y anuales promedio de producción de una planta conectada a la red con un potencial pico de \(1;kW\), calculados a partir de un periodo reciente de 20 años (1999–2018).

Code
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
import json
from plotly.subplots import make_subplots

with open("brazil-states.geojson", "r", encoding="utf-8") as f:
    geojson_brasil = json.load(f)

estados_nordeste = [
    'Alagoas', 'Bahia', 'Ceará', 'Maranhão', 'Paraíba',
    'Pernambuco', 'Piauí', 'Rio Grande do Norte', 'Sergipe'
]

df_estados = pd.DataFrame({
    'Estado': [feature['properties']['name'] for feature in geojson_brasil['features']],
    'Região': ['Nordeste' if feature['properties']['name'] in estados_nordeste else 'Outros'
               for feature in geojson_brasil['features']]
})

df_destacado = pd.DataFrame({
    'Estado': [feature['properties']['name'] for feature in geojson_brasil['features'] if feature['properties']['name'] in estados_nordeste],
    'Grupo': ['Paraíba' if feature['properties']['name'] == 'Paraíba' else 'Outro Nordeste'
              for feature in geojson_brasil['features'] if feature['properties']['name'] in estados_nordeste]
})

capitais = pd.DataFrame({
    'Cidade': ['Maceió', 'Salvador', 'Fortaleza', 'São Luís', 'João Pessoa',
               'Recife', 'Teresina', 'Natal', 'Aracaju'],
    'Lat': [-9.6658, -12.9714, -3.7319, -2.5307, -7.1153,
            -8.0476, -5.0892, -5.7945, -10.9472],
    'Lon': [-35.7350, -38.5014, -38.5267, -44.3028, -34.8631,
            -34.8770, -42.8016, -35.2110, -37.0731]
})


fig1 = px.choropleth(
    df_estados,
    geojson=geojson_brasil,
    locations="Estado",
    featureidkey="properties.name",
    color="Região",
    color_discrete_map={'Nordeste': 'salmon', 'Outros': 'lightgray'},
    labels={'Região': 'Região'}
)


fig2 = px.choropleth(
    df_destacado,
    geojson=geojson_brasil,
    locations="Estado",
    featureidkey="properties.name",
    color="Grupo",
    color_discrete_map={'Paraíba': 'orange', 'Outro Nordeste': 'salmon'},
    labels={'Grupo': 'Grupo'}
)

fig2.add_trace(go.Scattergeo(
    lon=capitais["Lon"],
    lat=capitais["Lat"],
    text=capitais["Cidade"],
    mode='markers+text',
    marker=dict(size=12, symbol='triangle-up', color='black'),
    textposition="top center",
    name='Cidade'
))

fig_combined = make_subplots(
    rows=1, cols=2,
    subplot_titles=("Brasil com Região Nordeste", "Capitais do Nordeste"),
    specs=[[{"type": "choropleth"}, {"type": "choropleth"}]]
)

for trace in fig1.data:
    fig_combined.add_trace(trace, row=1, col=1)
for trace in fig2.data:
    fig_combined.add_trace(trace, row=1, col=2)

fig_combined.update_layout(
    height=700,
    width=1300,
    showlegend=True,
    font=dict(family="Arial", size=16),

    geo=dict(  
        projection_type='mercator',
        center={"lat": -14.5, "lon": -52},
        fitbounds="locations",
        visible=False
    ),

    geo2=dict(  
        projection_type='mercator',
        center={"lat": -9, "lon": -38.5},
        lonaxis=dict(range=[-50, -30]),
        lataxis=dict(range=[-20, 5]),
        visible=False
    )
)

fig_combined.show()

Estas condiciones convierten al noreste en una región clave tanto a nivel nacional como internacional para el desarrollo de proyectos de energía solar y eólica .

En este contexto, resulta particularmente relevante el caso del estado de Paraíba, el cual ha sido recientemente caracterizado como una de las regiones con mayor índice de irradiación solar en Brasil, según evidencia empírica obtenida a partir de modelos físicos y satelitales de alta resolución . Este hallazgo no solo ratifica el potencial energético de la región, sino que también fundamenta la selección de Paraíba como unidad geográfica de análisis para la presente investigación.

2.2 Antecedentes

<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2015</strong><br>
  Olatomiwa et al.<br>
  <em>SVM + Firefly para<br>predicción de radiación solar.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2016</strong><br>
  Wang et al.<br>
  <em>Comparación de modelos<br>híbridos para radiación solar.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2017</strong><br>
  Voyant et al.<br>
  <em>Revisión de técnicas de<br>Machine Learning para radiación.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2018</strong><br>
  Sobri et al.<br>
  <em>Revisión de métodos de<br>predicción fotovoltaica.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2019</strong><br>
  Benali et al.<br>
  <em>Predicción solar con ANN y<br>Random Forest.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2020</strong><br>
  Gao et al.<br>
  <em>Predicción horaria con<br>CEEMDAN + CNN-LSTM.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2021</strong><br>
  Kumari et al.<br>
  <em>Modelo híbrido LSTM-CNN<br>para irradiancia solar.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2022</strong><br>
  Wei et al.<br>
  <em>Mapeo espaciotemporal con<br>contaminación como variable.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2023</strong><br>
  Gaboitaolelwe et al.<br>
  <em>Comparación de modelos de<br>ML para energía fotovoltaica.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>
<div style="background: #f0f8ff; padding: 15px; height: 140px; border-left: 5px solid #003366; border-radius: 8px;">
  <strong>2024</strong><br>
  Gao et al.<br>
  <em>Transfer learning con ADDA<br>para predicción solar.</em>
</div>
<div style="width: 14px; height: 14px; background: #003366; border-radius: 50%; margin: 10px auto;"></div>

2.3 Planteamiento del problema

Actualmente, la matriz energética mundial depende principalmente del uso de combustibles fósiles, los cuales son finitos y contaminantes . Esta situación ha intensificado la búsqueda de alternativas sostenibles como la energía solar, considerada una fuente limpia, inagotable y accesible . Brasil lidera esta transición en América Latina: en 2023, el 83.79 % de su matriz eléctrica provenía de fuentes renovables, destacándose la participación de la energía hidroeléctrica, eólica y solar . Como se muestra en la Figura \(\ref{Matriz_Br}\), existe una alta densidad de proyectos fotovoltaicos planificados en la región noreste del país.

Mapa de la Matriz Energética

Figura 3. Mapa general de distribución geográfica de la matriz energética y de proyectos planificados en Brasil. Se observa una alta densidad de planes fotovoltaicos en la región noreste. Fuente: Global Solar Atlas / Datos energéticos.

A pesar de este panorama, el potencial solar en regiones con alta irradiación como el noreste brasileño sigue subutilizado, debido a barreras estructurales e institucionales . Esta situación demanda el desarrollo de modelos predictivos más precisos para estimar la radiación solar, superando las limitaciones de los enfoques empíricos y físicos tradicionales .

Técnicas de Machine Learning han demostrado mejores resultados, especialmente bajo esquemas híbridos que integran transformadas, modelos estadísticos y redes neuronales . Sin embargo, no se han identificado estudios que implementen un modelo híbrido DWT–ARIMA–BO–ANN en el estado de Paraíba, a pesar de su alto potencial fotovoltaico y sus necesidades energéticas particulares.

Frente a este panorama, el presente estudio propone utilizar técnicas de imputación de datos faltantes basadas en métodos estadísticos . Además, se presenta una metodología híbrida basada en descomposición por medio de que combina un modelo de series de tiempo, y otro de , surgiendo

la pregunta de investigación:

¿Es el modelo híbrido propuesto (DWT–ARIMA–BO–ANN) óptimo y para predecir la radiación solar en el estado de Paraíba?

2.4 Objetivos

2.4.1 Objetivo general

Predecir la radiación solar en el estado de Paraíba, de Brasil, mediante el uso de técnicas híbridas basadas en la Transformada Wavelet Discreta (DWT), el Modelo Autorregresivo Integrado de Media Móvil (ARIMA) y Redes Neuronales Artificiales (ANN) con Optimización Bayesiana (BO), como herramienta de apoyo para la planificación de proyectos solares.

2.4.2 Objetivos específicos

  1. Realizar un Análisis Exploratorio de Datos (EDA) de bases asociadas a radiación solar en Paraíba para identificar patrones importantes en las series temporales, evaluando estacionariedad, datos faltantes y la distribución de la variable estudiada.

  2. Predecir señales de baja y alta frecuencia derivadas de la Transformada Wavelet Discreta (DWT) mediante un enfoque híbrido que combine modelos ARIMA para señales de baja frecuencia y ANN para las de alta frecuencia optimizado con BO (BO-ANN), respectivamente.

  3. Pronosticar la radiación solar integrando las señales de alta y baja frecuencia predichas, evaluando la eficiencia del modelo mediante métricas como: MAPE, MAD, MSD y \(R^2\).

2.5 Justificación

Tecnología
Tecnología
Ciencia
Ciencia
Impacto social
Impacto social
Impacto ambiental
Impacto ambiental

La presente investigación es importante porque representa un aporte significativo en cuatro dimensiones clave: científica, tecnológica, social y ambiental. Desde el enfoque científico, contribuye al avance del conocimiento al proponer un modelo híbrido innovador que combina la Transformada Wavelet Discreta (DWT), el modelo ARIMA, la Optimización Bayesiana (BO) y Redes Neuronales Artificiales (ANN), permitiendo abordar de manera precisa series temporales no lineales, con ruido e irregularidad como las de radiación solar. En el plano tecnológico, esta propuesta responde a la necesidad de contar con herramientas predictivas robustas y adaptables a territorios con limitada infraestructura de monitoreo, como el estado de Paraíba, optimizando así la planificación de sistemas fotovoltaicos más eficientes y confiables. Desde una perspectiva social, el estudio apoya la toma de decisiones informadas para reducir la brecha energética en comunidades vulnerables, promoviendo el acceso a energías limpias, económicas y sostenibles, al tiempo que fortalece la formación de capacidades locales en ciencia de datos y transición energética. Finalmente, el impacto ambiental se refleja en el impulso a una matriz energética más limpia, con menor dependencia de fuentes fósiles, reducción de emisiones contaminantes, conservación de recursos naturales y mejora de la calidad ambiental en regiones donde el aprovechamiento del recurso solar puede traducirse en beneficios tangibles para el territorio y su población.

2.7 Marco Teórico

2.7.1 Modelo Autorregresivo Integrado de Media Móvil ()

Los Modelos de Media Móvil Integrada Autorregresiva , iniciados por Box y Jenkins , son técnicas de pronóstico poderosas y útiles para predecir series de tiempo . Fundamentalmente, los modelos ARIMA se utilizan para pronosticar valores futuros de una serie temporal mediante la aplicación de una combinación ponderada de información histórica y residuos. Este modelo se caracteriza por estar compuesto por tres componentes clave: el grado de diferenciación estacional requerido, los órdenes de autorregresión y media móvil .

El operador de desplazamiento hacia atrás, \(B\), es introducido para remover la no estacionariedad. Una serie de tiempo \(y_{t}\) es homogénea no estacionaria si su primera diferencia, \(w_{t} = y_{t} - y_{t-1} = (1 - B)y_{t}\), o la \(d\)-ésima diferencia, \(w_{t} = (1 - B)^{d}y_{t}\), produce una serie temporal estacionaria. Además, \(y_t\) se conoce como el modelo de promedio móvil integrado autorregresivo con órdenes \(p\), \(d\), y \(q\), y se denota \((p, d, q)\). Si su \(d\)-ésima diferencia produce estacionariedad, se procede a un modelo \((p, q)\). Por lo tanto, un \((p, d, q)\) puede ser descrito como:

\[ \Phi(B)(1-B)^d y_t = \delta + \Theta(B)\varepsilon_t \]

Donde:

\[ \Phi(B) = 1 - \sum_{i=1}^{p} \phi_i B^i \quad \text{y} \quad \Theta(B) = 1 - \sum_{i=1}^{q} \theta_i B^i \]

Los operadores de desplazamiento para AR\((p)\) y MA\((q)\) son definidos como:

\[ \Phi(B)y_t = \delta + \varepsilon_t \quad \text{y} \quad y_t = \mu + \Theta(B)\varepsilon_t, \]

con \(\delta = \mu - \phi \mu\), donde \(\mu\) es la media y \(\varepsilon_t\) el ruido blanco con \(E(\varepsilon_t) = 0\).

Los órdenes \(p\), \(q\) del modelo se pueden determinar empleando las estructuras de autocorrelación y autocorrelación parcial. Los coeficientes se calculan mediante el enfoque de máxima verosimilitud iniciado por Box y Jenkins . A partir de comprobaciones evaluativas como el criterio de información de Akaike (AIC) y la prueba de normalidad de Jarque-Bera para series residuales, se identifican los modelos óptimos.

A continuación, se presentan algunos estudios relacionados a la radiación solar mediante el modelo :

  • En la capital de la India, se pronosticó la insolación mensual promedio en un área de 18.904 millas cuadradas utilizando un histórico de 34 años de datos de insolación de .

  • En las capitales de Jordania y Polonia, cuyos niveles de irradiancia horizontal global () diario promedio difieren en más del doble, se identificaron modelos adecuados para ambas ubicaciones, y se estimaron los parámetros para intervalos de tiempo horarios y mensuales de radiación .

  • En la ciudad de Seúl, Corea del Sur, se aplicó el modelo usando 37 años de datos como conjunto de entrenamiento y prueba para pronosticar radiación solar promedio mensual con un retraso estacional de naturaleza cíclica .

  • En la ciudad de Tetuán, se realizó una comparación entre modelos y para modelar la radiación solar bajo condiciones climáticas similares. En tres períodos consecutivos, el modelo resultó óptimo en términos de bondad de ajuste para pronosticar la radiación solar global diaria media mensual .

  • Finalmente, un estudio mediante el enfoque de Box-Jenkins simuló los datos de insolación promedio mensual del conjunto para un período de 34 años en la Universidad Jamia Millia Islamia, Nueva Delhi. La serie fue evaluada con distintos criterios de selección, concluyendo que el modelo multiplicativo estacional puede emplearse eficazmente para pronosticar la radiación solar .

2.7.2 La Transformada Wavelet Discreta

La transformada Wavelet introducida por es una técnica que descompone una señal en diferentes escalas temporales. Al descomponer una serie en un espacio de tiempo-frecuencia, se pueden determinar los modos dominantes de variabilidad en el tiempo . Definida como un conjunto de funciones de base que pueden generarse mediante la traslación y escalado de la denominada ondícula madre \(\psi_{a,b}\) :

\[ \psi_{a,b} = \frac{1}{\sqrt{a}}\psi \left ( \frac{t-a}{a} \right ), \quad a > 0, \; -\infty < b < \infty \]

Donde \(a\) es el parámetro de escala y \(b\) es la ubicación de la ondícula. Cabe mencionar que existe una diversidad de enfoques de Transformadas para las cuales se pueden utilizar diferentes ondículas madre. Sin embargo, en el contexto de investigación, el enfoque se centrará específicamente en la Transformada Wavelet Discreta .

Una Transformada Wavelet Discreta es un conjunto de pequeñas funciones discretas para representar escalas y desplazamientos en la señal original. Aunque la se encuentra diseñada para el análisis de muestras, es importante destacar que esta transformación realiza una descomposición de la señal en un conjunto multiortogonal de wavelets.

La emplea una cuadrícula díadica, en la cual la wavelet madre experimenta una variación de escala mediante un factor de dos elevado a la potencia de \(a = 2^{j}\), y se desplaza a lo largo de números enteros \(b = k 2^{j}\), donde \(k\) representa un índice de ubicación que varía en el rango de \(1\) a \(2^{-j} N\) (siendo \(N\) el número total de observaciones). El parámetro \(j\) varía desde \(0\) hasta \(J\) (donde \(J\) corresponde al número total de escalas). La se define por medio de la siguiente ecuación:

\[ \Psi_{j,k}(t)= 2^{-j/2}\Psi (2^{-j}t - k) \]

donde los coeficientes se calculan según la siguiente expresión:

\[ W_{j,k} = W(2^{j}, k2^{j}) = 2^{-j/2} \int_{-\infty}^{\infty} f(t) \Psi(2^{-j}t - k) dt \]

A continuación, se efectúa el cálculo de la media de la transformada wavelet discreta inversa con el propósito de restaurar la señal original a partir de los coeficientes wavelet \(W_{j,k}\), de la siguiente forma:

\[ f(t) = \sum_{j=-\infty}^{\infty} \sum_{k=-\infty}^{\infty} W_{j,k} \Psi_{j,k}(t) \]

La Transformada Wavelet Discreta (DWT) utiliza una variedad de ondículas madre, tales como: la ondícula Haar, Daubechies, ortogonal, Symlet, Meyer y Coiflets, entre otras .

En este estudio, se propone el uso de ondículas madre Daubechies en la fase inicial del procesamiento de datos, empleando el Análisis Multi-Resolución con descomposición en múltiples niveles utilizando filtros de paso bajo y paso alto . Esto genera componentes de detalle \((D_{n})\) y aproximación \((A_{n})\) a partir de una serie temporal \((y_{t})\).

El análisis Wavelet se está convirtiendo en una herramienta potente en las ciencias para analizar variaciones localizadas en una serie temporal . Al emplear en predicción de radiación, puede proporcionar un enfoque eficaz para el análisis de series temporales .

2.8 La Optimización Bayesiana

La optimización bayesiana representa una estrategia consolidada y eficaz para abordar la optimización global en el contexto de funciones caja negra, caracterizadas por su inherente ruido y alta complejidad computacional .

La se basa en la construcción de modelos probabilísticos que caracterizan la distribución de funciones objetivo en el espacio de entrada . Dicho enfoque implica la incorporación de una prioridad funcional y la observación de pares de entrada-objetivo, denotados como \(D = \{(x_{n}, y_{n})\}\), donde \(n\) varía de 1 a \(N\). Esta estrategia eficiente permite obtener una función probabilística, computacionalmente más accesible, que facilita la identificación del óptimo de una función costosa.

Para cuantificar los nuevos experimentos, se recurre a una función de adquisición, cuya aplicación sobre la media y la varianza de la distribución posterior posibilita un equilibrio ponderado entre la exploración y explotación de las regiones del espacio de búsqueda. La ejecución de la optimización bayesiana se lleva a cabo a través de una optimización indirecta de esta función de adquisición, determinando de este modo la siguiente entrada a ser evaluada.

La trata de resolver el problema de minimización:

\[ x^{*}= \underset{x \in \mathcal{X}}{\mathrm{argmin}} \: f(x), \]

donde se toma \(\mathcal{X}\) como un subconjunto compacto de \(\mathbb{R}^{k}\).
Para los hiperparámetros del modelo sustitutivo \(\Theta\), la varianza marginal predictiva se define como \(\sigma^{2}(x; \Theta)\) y la media predictiva como \(\mu (x; \mathcal{D}, \Theta)\). Se define entonces:

\[ \gamma (x) = \frac{f(x_{\text{best}}) - \mu (x; \mathcal{D}, \Theta)}{\sigma (x; \mathcal{D}, \Theta)} \]

donde \(f(x_{\text{best}})\) es el valor observado más bajo. El criterio de mejora esperada se define como:

\[ a_{EI}(x,\mathcal{D}, \Theta) = \sigma (x; \mathcal{D}, \Theta) \left[ \gamma (x) \Phi (\gamma (x)) + \mathcal{N}( \gamma (x); 0, 1) \right] \]

Aquí, \(\Phi(\cdot)\) representa la función de distribución acumulativa de una normal estándar, y \(\mathcal{N}(\cdot; 0, 1)\) es la densidad de una normal estándar .

La optimización bayesiana es un pilar esencial para la obtención de resultados óptimos en investigaciones científicas, dado que aporta arquitecturas novedosas de aprendizaje profundo .

2.9 Modelos de Redes Neuronales Artificiales

El aprendizaje profundo permite que los modelos computacionales que se componen de múltiples capas de procesamiento aprendan representaciones de datos con múltiples niveles de abstracción . Las arquitecturas son hoy en día una de las estructuras de red más utilizadas para clasificación y regresión .

El modelo es definido como:

\[ \hat{y} = \alpha_{0} + \sum_{j=1}^{N} \alpha_{j} f_{A}\left( \omega_{j}^{T} {y}' \right) \]

Donde \({y}'\) representa el vector de entrada \({y}' = (1, y^{T})^{T}\), \(\omega_{j}\) es el vector de pesos, \(\alpha_{0}, \alpha_{1}, \dots, \alpha_{N}\) son las ponderaciones de salida y \(\hat{y}\) es la salida de la red. La función \(f_{A}\) representa la activación del nodo oculto.

2.10 Metodología

En esta investigación el estudio es tratado según su nivel de medición, por lo tanto, es cuantitativo dada la naturaleza de la variable respuesta (radiación). La radiación solar, expresada en unidades de potencia \((W/m^{2})\), es recolectada directamente por un sistema de medición que utiliza piranómetros . Además, según su ubicación temporal o la obtención de las observaciones en el tiempo, los datos considerados en el presente estudio son del tipo longitudinal y prospectivo, dado que las observaciones son recolectadas a medida que van sucediendo .

La metodología de investigación utilizada en esta propuesta es de tipo aplicada, la cual contiene un conjunto de procedimientos, herramientas y técnicas que se utilizan para diseñar, realizar y analizar estudios de investigación destinados a resolver problemas prácticos en entornos reales. La evaluación de los componentes de la serie de tiempo asociada a radiación solar es útil dentro de sus aplicaciones, debido al comportamiento estacionario de los parámetros de radiación solar y a la variedad de condiciones atmosféricas .

Para llevar a cabo las predicciones de radiación solar haciendo uso de una metodología híbrida DWT–ARIMA–BO–ANN en los estados del noreste de Brasil, se debe seguir el siguiente esquema metodológico (ver Figura 4). Para ello, se utilizaron registros disponibles en el portal del Instituto Nacional de Meteorología de Brasil (INMET), accesible en: https://portal.inmet.gov.br/dadoshistoricos. Los datos considerados abarcan el período enero de 2019 a febrero de 2025.

Diagrama del modelo híbrido

Figura 4. Diagrama del flujo de implementación del modelo híbrido DWT–ARIMA–BO–ANN. Fuente: Elaboración propia.

  • Paso 1: Utilizar la base de datos pública de la Administración Nacional de Aeronáutica y el Espacio (NASA), a través del proyecto POWER, que proporciona conjuntos de datos solares y meteorológicos usados por la NASA para apoyar la energía renovable. Los datos históricos parten del 1 de enero de 1981 a la fecha.

  • Paso 2: Realizar un análisis exploratorio de los datos suministrados, evaluando y detectando distintos patrones, mediante pruebas como Dickey-Fuller para detectar estacionariedad estocástica, y gráficos de Autocorrelación y Autocorrelación Parcial.

  • Paso 3: Descomponer la serie de tiempo de radiación solar en señales de baja y alta frecuencia utilizando DWT. Las señales de baja frecuencia \(A_n\) se predicen con el modelo ARIMA, y las señales de alta frecuencia \(D_n\) con modelos de Redes Neuronales Artificiales (ANN). Las ANN son optimizadas con Optimización Bayesiana (BO) para mejorar el rendimiento computacional.

  • Paso 4: Obtener la predicción final de la radiación solar mediante la suma de predicciones reconstruidas de alta y baja frecuencia, modeladas por ARIMA y BO-ANN respectivamente, tal como se indica en la siguiente ecuación:

\[ \tilde{h}_{t}^{\textsf{w-ARIMA-BO-ANN}} = \tilde{A}_{n}^{\textsf{ARIMA}} + \tilde{D}_{n}^{\textsf{BO-ANN}} + \tilde{D}_{n-1}^{\textsf{BO-ANN}} + \cdots + \tilde{D}_{2}^{\textsf{BO-ANN}} + \tilde{D}_{1}^{\textsf{BO-ANN}} \]

También se realizarán pruebas de normalidad de residuos utilizando el test de Shapiro–Wilk.